Objectifs d'apprentissage
- Analyser l'intensité arithmétique et les limites théoriques (roofline) du GEMM dans les modèles Transformer
- Identifier les opérations limitées par la mémoire versus celles limitées par le calcul au sein des blocs Transformer
- Évaluer les stratégies de fusion d'opérateurs pour réduire la surcharge d'accès à la mémoire globale
- Examiner les schémas d'implémentation pour fusionner les couches d'activation, de normalisation et d'attention